Cos'è test di fisher?

Test Esatto di Fisher

Il test esatto di Fisher è un test di significatività statistica utilizzato nell'analisi di tabelle di contingenza di dimensioni 2x2. È particolarmente utile quando le dimensioni del campione sono piccole, il che rende le approssimazioni basate sulla distribuzione chi-quadrato inaffidabili.

Quando usarlo:

  • Quando si analizza una tabella di contingenza 2x2.
  • Quando i valori attesi in alcune celle della tabella sono bassi (tipicamente meno di 5), rendendo inaffidabile il test del chi-quadrato.
  • Per valutare l'associazione tra due variabili categoriche.

Come funziona:

Il test esatto di Fisher calcola la probabilità esatta di ottenere una tabella di contingenza come quella osservata (o più estrema) dato che i totali marginali sono fissi. Questo significa che considera tutte le possibili tabelle 2x2 con gli stessi totali di riga e colonna della tabella osservata, e calcola la probabilità di ciascuna di esse. La somma delle probabilità delle tabelle che sono "più estreme" (cioè, che mostrano una maggiore associazione tra le variabili) della tabella osservata è il valore p.

Ipotesi:

  • I dati sono categorici.
  • I totali marginali (totali di riga e colonna) sono fissi.
  • Le osservazioni sono indipendenti.

Calcolo:

Il calcolo del test di Fisher si basa sulla distribuzione ipergeometrica. La formula per calcolare la probabilità di una specifica tabella 2x2, dato che i totali marginali sono fissi, è:

P = (a+b)! (c+d)! (a+c)! (b+d)! / (n! a! b! c! d!)

dove:

  • a, b, c, d sono le frequenze nelle quattro celle della tabella 2x2.
  • n è la dimensione totale del campione (n = a + b + c + d).
  • ! indica il fattoriale (ad esempio, 5! = 5 * 4 * 3 * 2 * 1).

Per ottenere il valore p, si calcola la probabilità della tabella osservata e di tutte le tabelle più estreme, e poi si sommano queste probabilità.

Interpretazione:

  • Un piccolo valore p (tipicamente < 0.05) suggerisce che c'è una associazione significativa tra le due variabili categoriche.
  • Un grande valore p suggerisce che non ci sono prove sufficienti per concludere che c'è un'associazione tra le due variabili.

Vantaggi:

  • È esatto, anche con piccoli campioni.
  • Non richiede l'approssimazione del chi-quadrato.

Svantaggi:

  • Il calcolo può essere laborioso a mano, ma è facilmente eseguibile con software statistico.
  • È applicabile solo a tabelle 2x2. Per tabelle di dimensioni maggiori, si possono usare altri test (come il test chi-quadrato o il test di likelihood ratio), ma occorre considerare attentamente le dimensioni del campione e i valori attesi.